灾害智能识别-Random Forest算法
1.什么是随机森林
随机森林是一个高度灵活的机器学习方法,拥有广泛的应用前景,从市场营销到医疗保健保险。 既可以用来做市场营销模拟的建模,统计客户来源,保留和流失。也可用来预测疾病的风险和病患者的易感性。随机森林算法应用范围广泛。
随机森林算法通过集成学习的思想将多棵树进行集成,它的基本单元是决策树,其本质属于机器学习的一大分支——集成学习(Ensemble Learning)方法。针对分类问题,每棵决策树都是一个分类器,那么对于一个输入样本,N棵树会有N个分类结果。随机森林集成了所有的分类投票结果,将投票次数最多的类别指定为最终的输出,从而对 Bagging (Bootstrap aggregating)算法 进行实现。
2.相关知识
2.1 集成学习
集成学习通过建立多个模型组合的来解决单一预测问题。它的工作原理是生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成单预测,因此优于任何一个单分类的做出预测。
随机森林是集成学习的一个子类。
2.2 信息、熵以及信息增益
香农:信息是用来消除随机不确定性的东西。对于机器学习中的决策树而言,如果带分类的事物集合可以划分到多个类别中,则某个类$(x_i)$的信息定义如下: $I(x)$用来表示随机变量的信息,$p(x_i)$指是当$x_i$发生时的概率。
- 熵用来度量不确定性,熵越大,$X=x_i$的不确定性越大,反之越小。对于机器学习中的分类问题而言,熵越大即这个类别的不确定性更大,反之越小。
- 信息增益在决策树算法中用来选择特征的指标,信息增益越大,这个特征的选择性越好。
2.3决策树
决策树是一种树形结构,每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。常见的决策树算法有C4.5、ID3和CART。
3、灾害智能识别
3.1 地质灾害数据清洗与数据抽析。
对不同GIS专题数据进行数据清洗与数据抽析。
3.2 地质灾害数据标准化
对清洗后的数据进行数据标准化处理,形成可标准化Input数据。
3.3 地质灾害数据训练与预测
利用标准化后的Input数据进行训练与预测。